期刊
  出版年
  关键词
结果中检索 Open Search
Please wait a minute...
选择: 显示/隐藏图片
1. 基于WaveNet的端到端语音合成方法
邱泽宇, 屈丹, 张连海
计算机应用    2019, 39 (5): 1325-1329.   DOI: 10.11772/j.issn.1001-9081.2018102131
摘要1089)      PDF (819KB)(577)    收藏
针对端到端语音合成系统中Griffin-Lim算法恢复相位信息合成语音保真度较低、人工处理痕迹明显的问题,提出了一种基于WaveNet网络架构的端到端语音合成方法。以序列映射Seq2Seq结构为基础,首先将输入文本转化为one-hot向量,然后引入注意力机制获取梅尔声谱图,最后利用WaveNet后端处理网络重构语音信号的相位信息,从而将梅尔频谱特征逆变换为时域波形样本。实验的测试语料为LJSpeech-1.0和THchs-30,针对英语、汉语两个语种进行了实验,实验结果表明平均意见得分(MOS)分别为3.31、3.02,在合成自然度方面优于采用Griffin-Lim算法的端到端语音合成系统以及参数式语音合成系统。
参考文献 | 相关文章 | 多维度评价
2. 说话人确认中分数归一化的一种新方法
高新建 屈丹 李弼程
计算机应用   
摘要1618)      PDF (529KB)(1017)    收藏
在说话人确认中,由于目标说话人和冒认者的得分分布是双峰分布,并且不同目标说话人模型得分分布不一致,使对所有说话人确定一个统一的阈值变得困难,导致系统性能下降。分数归一化通过调整冒认者的得分分布来调整阈值。简要介绍了目前最常用的两种归一化方法:零归一化(Z-Norm)和测试归一化(T-Norm)。重点引入了一种新的根据KL距离的D-Norm 归一化方法。然后结合Z-Norm 和D-Norm的优点,又提出一种新的方法ZD-Norm。对这四种归一化方法的性能进行了比较。实验表明,ZD-Norm相对Z-Norm和D-Norm,能够更有效地提高说话人确认系统的性能。
相关文章 | 多维度评价